Amazon S3 Express One Zone:激发高性能对象存储革命
多年来,我们始终坚信,在现代数据堆栈中,对象存储已成为主要的存储方式。在人工智能时代,企业更是将对象存储作为重点。现代数据堆栈高度依赖于在Kubernetes上运行的云原生微服务,而与之相伴的计算和存储分离现象愈发明显。随着越来越多的企业采纳这种架构,对象存储已成为提升性能和可扩展性的关键因素。
在主存储而言,性能至关重要,这也是我们经常被用作AI/ML和数据湖本地主存储的原因。我们能够提供惊人的性能,最近的基准测试显示,在GET操作上达到了325 GiB/s,PUT操作上达到了165 GiB/s,仅使用32个标准的NVMe SSD节点。不仅如此,我们还满足了Apache Spark、Kubeflow、Ray Data等高要求工作负载的性能需求。
Amazon S3 Express One Zone是其备受推崇的S3的高性能版本。S3 Express One Zone经过优化,具有高吞吐量和低延迟。能够处理数百万IOPS,Amazon S3 Express One Zone专为需要大规模并行操作进行机器学习训练和实时机器学习而设计。Amazon声称,Amazon S3 Express One Zone的数据访问速度是标准S3的10倍,延迟仅为个位数毫秒,并且成本更低。Amazon S3 Express One Zone存储桶仅限于单个可用性区。定价基于消耗,为每GB每月0.16美元,是标准S3的8倍。Amazon的意图是让客户将“频繁访问的数据放在高性能计算资源邻近”。
Amazon S3 Express One Zone为在AWS中实现快速无服务器计算提供了可能。流处理在低延迟和更高并发性方面得到了显著提升,WarpStream已经开始利用这一优势。此外,基于Apache Hudi、Iceberg和Delta等开放表格格式构建的应用程序也受益于更快的对象存储。对于需要大量数据读取的人工智能应用来说,高性能对象存储也是其关键的获益点。
剖析Amazon S3 Express One Zone细节
Amazon S3 Express One Zone是一个用于本地计算的临时对象存储,并非用于替代数据湖。Amazon的客户仍将继续将数据存储在标准的S3中。不过,从今往后,他们可以选择在S3 Express中复制或分层存储数据,以便进行快速处理。处理完成后,数据将从S3 Express中删除,而存储在标准S3中的原始数据保持不变。
在某种程度上,这是出于实际需求。因为S3 Express并不是长期存储的理想选择。尽管它提供了3倍至10倍的性能提升,但其价格却是标准S3的8倍,比EBS SSD还要贵30%至200%。这样的定价策略削弱了S3增长的一个重要推动力——经济实惠。因此,企业必须仔细考虑其工作负载,并权衡成本和性能,以决定是否使用S3 Express。
然而,这一新型存储类别的引入充分利用了现代数据架构的分离特性,并利用这种模块化为企业提供了调整每个工作负载的能力,以实现低延迟和高成本(S3 Express)或高延迟和低成本(标准S3)。这种模块化是由对象存储实现的。企业不再需要在本地文件系统或块存储上存储庞大的数据集,无论是在Amazon还是其他任何地方。
这是一个重要的观点:在现代工作负载方面,S3 Express的引入进一步证明了在Amazon和其他地方,传统的文件和块存储已经过时。企业现在可以构建和设计仅通过S3 API与数据交互的云原生系统。统一的编程接口简化了架构,无需编写特殊代码来传输AI训练数据,只需要暂时迁移到更快的对象存储层。
S3 Express与标准S3:性能与成本的权衡
没有什么比全球最大的云服务商推出的一项旨在满足数据密集型AI/ML应用需求的新服务更能说明我们的观点:“对象存储已成为AI的主存储”。这项服务是专为大量小对象而构建的,而这正是AI/ML的常见工作负载特征。大规模的ML训练必须依赖于对象存储,因为它们在数百个计算节点上并行运行,并且通常依赖于成本高昂的GPU进行计算。
我们可以几乎肯定,所有主要的云服务商都将推出类似的高性能对象存储方案,并以类似的价格进行定价。这对他们来说是一个很好的增值机会,可以提供更贵的存储方案。这可能不会阻止数据回归的趋势,这是一种节约成本的现象,同时也能提高AI/ML的性能和对数据的控制。然而,这是一种有计划的尝试来减缓这一趋势。真正的输家是传统的块和文件存储(参见NetApp最近的季度报告)。
对象存储:AI/ML主存储的未来趋势
我们对S3 Express的推出感到非常自豪。这验证了我们在过去几年中所做的许多工作,不仅在性能方面,还包括可扩展性、弹性和安全性方面。更重要的是,我们认为这是一个向市场发出的重要信号,即传统的文件和块技术已经过时,现代数据堆栈始于对象存储,并以对象存储作为终点。
对象存储作为主存储的崛起,主要是由性能驱动的。对于数据需求巨大的AI/ML应用来说,它们需要低延迟、高吞吐量和高并发的对象存储。Amazon S3 Express One Zone对于已经投资于AWS生态系统的用户来说,将是一个非常有价值的服务。如果你希望在本地或共同托管的环境中使用高性能对象存储作为AI/ML的主存储,那么我们是你最好的选择。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解